Библиотека собеса по Data Science | вопросы с собеседований 1019 Telegram Web

Библиотека собеса по Data Science | вопросы с собеседований

👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍

Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.

📍

Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.

📍

Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍

Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;

📍

Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;

📍

Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

409 views18:20

Библиотека собеса по Data Science | вопросы с собеседований

Please open Telegram to view this post

VIEW IN TELEGRAM

387 views09:01

Библиотека собеса по Data Science | вопросы с собеседований

🔎

В чём разница между доверительным интервалом и байесовским (достоверным) интервалом

Доверительный интервал (confidence interval) — это концепция из частотной статистики, где параметр считается фиксированным, а вариативность связана с данными. Например, 95% доверительный интервал означает, что при многократном повторении эксперимента 95% таких интервалов будут содержать истинное значение. Однако нельзя сказать, что с 95% вероятностью параметр лежит в этом конкретном интервале.

Байесовский достоверный интервал (credible interval) исходит из идеи, что параметр — это случайная величина. После наблюдений мы имеем апостериорное распределение, и 95% интервал означает, что с 95% вероятностью параметр лежит в этом интервале.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

384 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

😱 Завтра цена на курс «AI-агенты для DS» вырастет

Пока вы думаете — другие уже покупают. Что вы теряете, откладывая решение? Как минимум — 10 000 рублей, именно столько вы переплатите завтра. Как максимум — шанс войти в топ-1% дата-сайентистов, которые умеют строить AI-агенты.

🎓 Чему вы научитесь на курсе:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой

Решение за вами.

👉 Купить курс по старой цене

proglib.academy

Курс|AI-агенты для DS-специалистов

На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…

340 views07:01

Библиотека собеса по Data Science | вопросы с собеседований

➡️

Как batch normalization и dropout связаны с предположением о независимых и одинаково распределённых (i.i.d.) данных

Batch normalization рассчитывает среднее и дисперсию по мини-батчу, предполагая, что данные в нём отражают общее распределение. Если данные в батче не являются i.i.d. (например, временные зависимости или перекос по классам), то оценки могут быть неточными.

Dropout случайно отключает нейроны, предполагая независимость примеров между собой. При сильной корреляции в данных dropout может всё ещё помогать как регуляризация, но эффективность зависит от характера зависимости между примерами.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

294 views18:04

2025/06/15 11:54:23
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>